應用不定長度特徵之條件隨機域於口語不流暢語流修正 (Disfluency Correction of Spontaneous Speech using Conditional Random Fields with Variable Length Features) [In Chinese]
نویسندگان
چکیده
This paper presents an approach to detecting and correcting edit disfluency based on conditional random fields with variable-length features. The variable-length features consist of word, chunk and sentence features. Conditional random fields (CRF) are adopted to model the properties of the edit disfluency, including repair, repetition and restart, for edit disfluency detection. For the evaluation of the proposed method, Mandarin conversational dialogue corpus (MCDC) is used. The detection error rate of edit word is 17.3%. Compared with DF-gram, Maximum Entropy and the approach combining language model and alignment model, the proposed approach achieves 11.7%, 8% and 3.9% improvements, respectively. The experimental results show that the proposed model outperforms other methods and efficiently detects and corrects edit disfluency in spontaneous speech.
منابع مشابه
雜訊環境下應用線性估測編碼於特徵時序列之強健性語音辨識 (Employing linear prediction coding in feature time sequences for robust speech recognition in noisy environments) [In Chinese]
近幾十年來,無數的學者先進對於此雜訊干擾問題提出了豐富眾多的演算法,略分成兩 大類別:強健性語音特徵參數表示法(robust speech feature representation)與語音模型調適 法(speech model adaptation),第一類別之方法主要目的在抽取不易受到外在環境干擾下 而失真的語音特徵參數,或從原始語音特徵中儘量削減雜訊造成的效應,比較知名的方 法有:倒頻譜平均值與變異數正規化法 (cepstral mean and variance normalization, CMVN)[1]、倒頻譜統計圖正規化法(cepstral histogram normalization, CHN)[2]、倒頻譜平 均值與變異數正規化結合自動回歸動態平均濾波器法(cepstral mean and variance normalization plus auto-r...
متن کامل以二維共振峰分布建立語者音色模型及其在語者驗證上之應用 (Using 2D Formant Distribution to Build Speaker Models and Its Application in Speaker Verification) [In Chinese]
語音是人類彼此間溝通最方便也最首要的方式。語音不但是用於傳播信息,也是一項重要的生物特徵 (biometrics),可以用來做身份識別之用。對於利用電腦來分析語音這方面的研究,大致可分為兩個領域: 一是語詞識別(speech recognition),一是語者識別(speaker recognition)[1-4]。若是要分辨某一個語音 樣本是否來自某一個特定的語者,則又稱為語者驗證(speaker verification 或 speaker authentication)。 語者驗證又可細分為限定語詞(text dependent)與非限定語詞(text independent)兩種方式[5,6]。在限 定語詞的方式中,用來比對的兩段語音樣本,其語音之內容須為相同或相似。而在非限定語詞的方式下, 其語句之內容可為不同。後者之處理難度較高,但在取樣上較不受限,其應用也較為廣泛。本研...
متن کامل強健性語音辨識中分頻段調變頻譜補償之研究 (A Study of Sub-band Modulation Spectrum Compensation for Robust Speech Recognition) [In Chinese]
雖然語音科技進步迅速,但自動語音辨識仍是一門值得繼續研究開發的課題。因為 目前多數的語音辨識系統應用於不受干擾的安靜環境,雖然能得到相當滿意的辨識效 果,但若將其應用於實際的環境中,語音訊號往往會因為環境雜訊的影響,導致辨識效 能有明顯地衰減,發展多年的強健性技術即是針對此項缺點作改進。 在諸多強健性技術中,有一類方法為對語音特徵作統計上的正規化,傳統上, 這些方法都是對全頻段的語音特徵時間序列做正規化處理,然而,在分析此類方法的效 能上,通常是以其調變頻譜的正規化程度作為效能的依據,因此,如果直接在語音特徵 之調變頻譜上作正規化,應亦可達到不錯的效果。另外,由於不同頻率的調變頻率成 份具有不相等的重要性,但是傳統之特徵時間序列正規化法相對忽略了此性質,基於這 些觀察,在本論文中,我們提出了一系列的分頻段調變頻譜統計正規化法,此類方法可 以分別正規化不同頻段的統計特性,進而提升語音特...
متن کامل調變頻譜正規化法使用於強健語音辨識之研究 (Study of Modulation Spectrum Normalization Techniques for Robust Speech Recognition) [In Chinese]
The performance of an automatic speech recognition system is often degraded due to the embedded noise in the processed speech signal. A variety of techniques have been proposed to deal with this problem, and one category of these techniques aims to normalize the temporal statistics of the speech features, which is the main direction of our proposed new approaches here. In this thesis, we propos...
متن کامل以語言模型判斷學習者文句流暢度(Analyzing Learners 'Writing Fluency Based on Language Model)[In Chinese]
由於現代科技以及 3C 產品的普及,使得孩子頻繁的接觸電視、網路、手機...等,因此 容易缺乏與人之間互動、溝通以及情感的表達,相對的,學生寫的作文常常是以流水帳 交代經過,有的學校甚至不考作文,但隨著教育政策的變動,國中教育會考加入了作文 評量的項目,使的作文再度受到學生及家長的重視。可是受限於學校教學時數,作文較 弱的學生容易缺少補救的機會。我們認為未來自學作文以及在家練習,可以藉由自動化 的作文教學系統輔助。而本系統開發作文教學系統之句子流暢度偵測,經由系統回饋的 診斷結果可以讓學生對詞句組合的理解力有所提升,幫助學生寫出較流暢的句子,藉此 提高他們的作文分數。系統所依賴的 N-gram 語言模型,它的特性是計算字詞間組合的 機率,機率越高的話字詞組合的正確性越高也就是越流暢,而語言模型效果相當依賴大 型的訓練語料,這是語言模型然能待克服的缺點,例如資料稀疏(Data spar...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
دوره شماره
صفحات -
تاریخ انتشار 2006